查看原文
其他

基本无害 | 使回归有意义——基本原理(3)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义

第一节 回归的基本原理



正文共4485个字,预计阅读时间12分钟。感谢阅读!

文中若有长公式,可通过左右上下滑动完整查看!

原文:3.1.3



3.1.1 经济关系与条件期望函数

3.1.2 线性回归与条件期望函数

3.1.3  渐近OLS推断

在实践中,我们通常不知道CEF或总体回归向量是什么。因此,我们使用样本对它们进行统计推断。统计推断是传统计量经济学的主要内容。尽管任何计量经济学教科书都已经包含了这一部分,但我们不想完全跳过推断这一步。对基础渐近理论的回顾使我们能够强调一个重要的事实,即统计推断的过程不同于应如何解释一组特定的回归估计值的问题。无论回归系数意味着什么,它都有一个易于描述和用于统计推断的抽样分布。[1]

(图中文字:个体层面数据  根据受教育年限计算的均值)

图3.1.3  学校教育回报的微观数据和分组数据估计值,来自Stata回归输出结果。资料来源:1980年人口普查- IPUMS中5%的样本。该样本包括40-49岁的白人男性。稳健标准误差是异方差一致的。图中A部分使用个体层面的微观数据。B部分使用的是按受教育年限计算的平均收入。

我们感兴趣的是在重复样本中下面这个系数的样本模拟值的分布。

假设向量 在大小为 的样本中独立同分布。一阶总体矩的自然估计量 。根据大数定律,随着样本容量的增加,这个样本矩向量无限地接近于相应的总体矩向量。我们同样可以考虑 元素的高阶矩,例如二阶矩矩阵 ,样本模拟值 。根据这一原理, 的矩估计方法用求和算子代替了每个期望算子。这个逻辑引出了普通最小二乘(OLS)估计量:

虽然我们推导的是一种矩估计方法,但它被称为 的OLS估计量,因为它求解了第3.1.2节开始描述的最小二乘问题的样本模拟值。

的渐近抽样分布完全依赖于对被估量的定义(即我们试图估计的 的性质)和数据由随机样本构成的假设。在导出这个分布之前,该定义有助于总结一般的渐近分布理论,以满足我们的需要。这个基本理论可以用文字语言来表述。为了说明这些观点,我们假设读者熟悉统计理论的核心术语和概念——矩、数学期望、概率极限和渐近分布。关于这些术语的定义和下面给出的理论命题的正式数学表述,可参看Knight(2000)。
大数定律  样本矩在概率上收敛于相应的总体矩。也就是说,只要样本足够大,样本均值接近总体均值的概率就足够高。
中心极限定理  样本矩是渐近正态分布的(在减去相应的总体矩并乘以样本容量的平方根后)。渐近协方差矩阵由相关随机变量的方差给出。换句话说,在足够大的样本中,适当标准化的样本矩近似正态分布。
SLUTSKY定理
1.考虑两个随机变量的和,其中一个在分布上收敛(换句话说,有一个渐近分布),另一个在概率上收敛于一个常数:用这个常数代替收敛到常数的那个随机变量不会影响这个和的渐近分布。正式来说,设 是一个具有渐近分布的统计量,设 是一个概率极限为 的统计量,则 具有相同的渐近分布。
2.考虑两个随机变量的乘积,其中一个在分布上收敛,另一个在概率上收敛于一个常数:用这个常数代替收敛到常数的那个随机变量不会影响这个乘积的渐近分布。正式来说,设 是一个具有渐近分布的统计量;设 是一个概率极限为 的统计量,则 具有相同的渐近分布。
连续映射定理  连续函数下的概率极限。例如,样本矩的任何连续函数的概率极限是在相应总体矩上给出的函数值。正式来说, 的概率极限是 ,其中 并且 处是连续的。
DELTA方法  考虑一个渐近正态分布的向量值随机变量。这一随机变量的连续可微的标量函数也是渐近正态分布的,其协方差矩阵由内部为该随机变量的协方差矩阵和外部为在该随机变量概率极限处的函数梯度值构成的二次型给出。[2] 正式来说, 的渐近分布是协方差矩阵为 的正态分布,其中 处连续可微,梯度为 具有渐近协方差矩阵 [3]
我们可以运用这些结果,通过两种方法推导 的渐近分布。一个概念上简单但有些粗暴的方法是使用delta方法: 是样本矩的函数,因此是渐近正态分布的。剩下的就是从这个函数的梯度来求渐近分布的协方差矩阵。(注意 的一致性直接来自于连续映射定理)。[4]一个更简单、更有指导意义的推导是使用Slutsky和中心极限定理。首先注意,我们可以写出:

如前所述,其中残差 定义为因变量与总体回归函数的差值。换句话说, 的结果,而不是关于潜在经济关系的假设。[5]

将该公式中的 代入等式(3.1.6),我们有:
的渐近分布是 的渐近分布。根据Slutsky定理,它与 具有相同的渐近分布。由于 是经过 标准化的样本中心矩。根据中心极限定理,它是均值为0、协方差矩阵为 的渐近正态分布,其中协方差矩阵 为一个四阶矩矩阵。因此, 具有概率极限为 和协方差矩阵为下式的渐近正态分布:
用于构造t统计量的理论标准误差为(3.1.7)对角线元素的平方根。在实践中,对这些标准误差的估计,是通过用求和算子代替期望算子和使用所估计的残差 来构造经验中的四阶矩矩阵 而实现的。
用这种方法计算出的渐近标准误差被称为异方差一致性标准误差、White (1980a)标准误差,有时为了认可Eicker(1967)的推导工作,也称它为Eicker-White标准误差。它们也被称为“稳健”标准误(例如在Stata软件中就是这样称呼)。之所以说这些标准误差是稳健的,是因为在足够大的样本中,它们在给定数据和模型的最少假设下,提供了准确的假设检验和置信区间。特别地,我们对极限分布的推导,除了保证中心极限定理这样的基本统计结论成立所需要的假设外,没有做任何其他假设。然而,稳健标准误并不是你的计量软件包默认的标准误。默认的标准误差是在同方差假设下推导出来的,具体来说,就是假设 是一个常数。在这个假设下,我们通过迭代期望法则,可以得到:

的渐近协方差矩阵化简为

除非你另有要求,否则(3.1.8)的对角线元素就是SAS或Stata报告的内容。

我们认为回归是对CEF的近似,这使得异方差性似乎很自然。如果CEF是非线性的,你使用一个线性模型来近似它,那么回归线和CEF之间的拟合质量将随着 的变化而变化。因此,平均而言,在 拟合较差的某些值,残差会较大。即使你准备假设给定 的条件方差是常数,CEF非线性这一事实也意味着 会随 而变化。要看到这一点,请注意:

因此,即使 是不变的,残差方差随着回归线和CEF之间差值的平方而增加,这是White (1980b)指出的事实。[6]

同样,值得注意的是,虽然线性CEF使同方差性成为可能,但这不是同方差性的充分条件。在这方面,我们最喜欢的例子是线性概率模型(LPM)。线性概率模型是因变量为0-1(即一个虚拟变量)的回归,譬如劳动力就业(与否)作为指标的虚拟变量。假设回归模型是饱和回归,那么给定回归变量的CEF是线性的。由于CEF是线性的,残差方差也是条件方差 。但因变量是条件方差为 的伯努利试验结果。由此我们得出结论,除非唯一的回归元是常数,否则LPM残差必然是异方差的。
尽管有这些原理上的要点,但作为一个经验问题,异方差性可能无关紧要。在图3.1.3所示的微观数据学校教育回归中,稳健标准误差为0.0003447,而以往的标准误差为0.0003043,并没有小很多。分组数据回归的标准误差(如果分组大小不同,则必然是异方差)变化更大;比较0.004的稳健标准误差和0.0029的常规标准误差就可以知道。根据我们的经验,这些差异是很具代表性的。如果异方差影响很大,比如,标准误差增加30%或显著减少,那么你应该担心可能的编程错误或其他问题。例如,出现低于常规的稳健标准误差,可能是稳健性计算中有限样本偏差的标志。
最后,简要说明一下我们这本教科书上的推断方法,你们可能在其他地方见过。传统的计量经济学推断始于比我们在本节中所引用的更强的假设。传统的框架,有时被称为经典的正态回归模型,需要以下这些假设成立:固定(非随机)回归元,线性CEF,误差项服从正态分布且同方差(例如可参见:Goldberger, 1991)。这些更强的假设为我们保证了两件事:(1)OLS估计量的无偏性,(2)OLS估计量的抽样方差公式,在小样本和大样本中都有效。OLS估计量的无偏性意味着 ,这是一个在任意大小的样本中都成立的性质,而且比一致性更强,后者意味着我们只能期望 在大样本中接近 。很容易可以看出,我们什么时候以及为什么能够做到无偏性。一般来说,

如果回归元是非随机的(在重复样本中是固定的),则这个期望值就是我们想要的,而且由于 ,我们可以取得无偏性。否则,在具有随机回归元的情况下,我们基于迭代期望法则,当 时,也可以得到无偏性。当CEF是线性的时候是这样,但在我们更一般的“不可知论回归(agnostic regression)”框架中则不是这样。

在经典假设下得到的方差公式与同方差下的大样本公式是一样的,但是——如果强经典假设是有效的——这个公式适用于任何大小的样本。我们选择从渐近方法开始进行推断,是因为现代经验研究通常严重依赖于稳健方差公式背后的大样本理论。其回报是在弱假设下的有效推断,对于我们的不那么直白的处理回归模型的方法,尤其有意义。另一方面,大样本方法也并非没有坏处,这一点我们将在第8章对推断的讨论和第4章对工具变量的讨论中再来探讨。

注释

[1]

本节对渐近OLS推论的讨论主要是对Chamberlain(1984)的相关内容的浓缩。最后一章讨论了渐近理论的重要缺陷和问题。

[2]

二次型是矩阵加权平方和。假设是一个向量,是一个矩阵。的二次型是。如果是一个对角矩阵,其对角元素为,则

[3]

使用Slutsky和连续映射定理推导delta方法公式,参见Knight2000,第120-121页。我们说“)的渐近分布”,其实我们指的是的渐近分布。

[4]

当一个估计量在概率上收敛于目标参数时,我们称它是一致的。

[5]

这样定义的残差并不一定与无关;对于均值独立性,我们需要一个线性CEF。

[6]

由(3.1.9)中间的平方项展开得到的叉乘项是零,因为是不依赖于的均值。



本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。





星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧

往期推荐


基本无害 | 使回归有意义——基本原理(1)

基本无害 | 使回归有意义——基本原理(2)

基本无害 | 第二章(全)理想的实验

数据治理 | 根据地址获取经纬度及行政区划——API的妙用

数据治理 | 工企地址清洗——Python的妙用

数据治理 | 数据量越来越大,Stata总奔溃?看来……





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 彭绮荣


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存